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摘要 : [目的 /意义 ] 机 构 名 称 的 数目 多 且 较 为 繁杂 ,机 构 名 称 归 一 化 可 将 同一 机 构 的 规范 名 称 以 及 不 同时 
段 、 不 同 表达 形式 的 非 规范 名 称 汇 集 在 一 起 ,提高 查询 检索 的 查 全 率 和 查 准 率 ; 有 利于 建立 与 其 他 系统 之 间 的 
互 操作 ,实现 资源 的 共享 。[ 方法/ 过程 ] 在 分 析 机 构 名 称 字符 串 的 特点 和 基于 开 -means 算法 的 基础 上 ,利用 编 
辑 距离 算法 实现 一 级 机 构 名 称 的 初步 聚 类 ,然后 利用 初步 聚 类 结果 并 基于 TF-IDF 算法 计算 机 构 名 称 各 词 项 的 
权 值 ,从 而 基于 -means 算法 将 机 构 名 称 围绕 聚 类 中 心 抱团 聚 猴 ,并 对 每 一 个 禾 的 机 构 名 称 赋予 唯一 标识 符 。 
[结果 /结论 ] 该 方法 可 实现 同一 机 构 实 体 不 同形 式 的 规范 名 称 的 归 一 ,提高 机 构 名 称 聚 类 的 准确 率 , 但 对 K 取 


值 . 距 离 测度 方法 的 选取 仍 有 待 优 化 。 
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科研 机 构 是 从 事 科 学 研究 的 高 等 院 校 .科研 院 所 
等 美体 对 象 ,由 于 机 构 名 称 形 式 多 样 ,机 构 合 并 、 更 替 
及 强 名 频繁 ,机 构 与 机 构 之 间 的 关系 不 明确 ,为 机 构 名 
称 的 识别 带 来 了 困难 ;此 外 ,不 同 科 研 作者 在 发 文 时 ， 
在 ;在 同 时 间 段 对 同一 单位 机 构 采 用 的 表达 方式 也 不 
同 $ 即 包括 机 构 名 称 的 规范 名 称 、. 曾 用 名 、 简 称 以 及 错 
误 若 录 形 式 等 。 从 而 影响 到 基于 机 构 名 称 的 信息 检 
索 > 统 计 分 析 、 计 量 评价 效果 。 机 构 名 称 归 一 化 旨 在 将 
同一 机 构 实 体 名 称 的 不 同 表 达 形 式 集中 起 来 ,建立 规 
范 名 称 与 变异 名 称 之 间 的 对 应 关系 ,通过 赋予 机 构 唯 
一 标识 符 的 方式 达到 机 构 识 别 的 目的 。 实 现 机 构 名 称 
归 一 化 ,在 数据 库 中 检索 或 统计 分 析 科 人 研 机 构 的 学 术 
成 果 时 ,可 将 同一 机 构 的 规范 名 称 以 及 不 同时 段 . 不 同 
表达 形式 的 非 规范 名 称 汇集 在 一 起 ,提高 查询 检索 的 
查 全 率 和 查 准 率 ; 此 外 ,对 机 构 规 范 名 称 赋 予 唯 一 标识 
符 , 有 利于 建立 与 其 他 系统 之 间 的 互 操 作 , 实 现 资源 的 
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对 于 机 构 名 称 文档 的 规范 控制 ,目前 国外 名 称 规 


范 控制 工作 已 较为 成 熟 , 通 过 建立 机 构 名 称 规范 档 、 机 
构 名 称 规范 库 等 实现 对 机 构 名 称 别 名 以 及 各 类 语言 

称 的 管理 。 著 名 的 虚拟 国际 规范 文档 ( Virtual Interna- 
tional Authority File ,VIAF ) ,是 2003 年 在 柏林 召开 的 
际 图 书馆 协会 联合 会 (IFLA ) 会 议 中 由 美国 国会 图 书 
馆 (LC) 德国 国家 图 书馆 和 联机 计算 机 图 书馆 中 心 
(OCLC) 共 同 发 起 的 ,其 目标 是 通过 将 各 个 图 书馆 和 机 
构 的 规范 文档 联系 起 来 从 而 为 同一 个 人 或 组 织 链 接 不 
同形 式 的 名 称 " ;规范 文档 链接 与 探索 (Linking and 
Exploring Authority Files ,LEAF) ,是 2001 年 由 欧洲 执 委 
会 带领 各 国 发 起 的 ,其 目标 是 开发 分 布 式 检索 系统 模 
型 架构 ,实现 各 个 不 同名 称 形式 的 分 散记 录 与 其 规范 
记录 的 链接 ”。 相 比 国外 ,国内 的 名 称 规范 控制 工作 
起 步 较 晚 ,20 世纪 90 年 代 我 国 国家 图 书馆 开始 着 手中 
文 名 称 规范 控制 。2009 年 ,国家 图 书馆 (NLC) 、 香 
地 区 大 学 图 书馆 协作 咨询 委员 会 (JULAC-HKCAN) 、 台 
湾 汉 学 研究 中 心 (CSS) 以 及 中 国 高 等 教育 文献 保障 系 
统管 理 中 心 (CALIS) 联合 建立 了 CNAJDSS ( China 
Name Authority Joint Database Search System, 中文 名 称 
规范 联合 数据 库 检 索 系 统 )" ,该 系统 集成 了 各 成 员 单 
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位 名 称 规范 数据 ,在 一 定 程 度 上 实现 了 数据 资源 的 共 
建 共 享 ;此 外 ,中 国 科 学 院 建立 了 其 所 属 机构 的 机 构 名 
称 规 范 库 , 甚 目标 是 全 面 构建 中 国 科 学 院 机 构 名 称 规 
范 化 描述 ,快速 实现 中 国 科 学 院 机 构 规 范 名 称 和 别名 
的 登记 、 机 构 关 联 关系 和 机 构 名 称 变更 关系 的 梳理 , 实 
现 机 构 名 称 规范 服务 ”。 但 实际 上 不 同 数据 库 之 间 存 
在 差异 ,存在 同一 机 构 但 采用 名 称 不 一 致 ,缺少 自动 识 
别 其 更 名 、 别 名 关系 的 机 制 , 随 着 机 构 名 称 数 量 的 增 
加 ,人 工 进行 处 理 将 愈 为 复杂 ,通过 识别 并 对 相应 机 构 
名 称 聚 类 是 辅助 人 工 完成 机 构 名 称 规范 的 解决 办 法 之 
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目前 对 机 构 名 称 识别 的 研究 较 多 ,从 方法 上 可 将 
其 分 为 两 类 ,一 类 是 基于 规则 的 方法 5-9 ,一 类 是 基于 
统计 的 方法 ”-"。 基 于 规则 的 方法 主要 是 利用 特征 词 
触发 的 形式 进行 识别 ,包括 从 机 构 名 称 的 语法 性 质 . 语 
义 等 性 组 织 规律 及 特点 等 进行 分 析 并 总 结 出 相应 的 
规则 模式 和 特征 ,通过 其 关键 词 进行 识别 ;基于 统计 
的 勇 法 主要 是 对 大 规模 语料库 进行 训练 ,对 语料库 中 
的 各 称 进行 分 析 从 而 构建 统计 模型 ,包括 组 块 分 析 技 
醋 奖 策 树 方法 .条 件 随 机 场 模型 ,支持 向 量 机 以 及 隐 
或 网 可 夫 模型 等 。 对 于 名 称 归 一 化 研究 ,Y，Jiang 
等 光 采 用 一 种 基于 归 一 化 的 压缩 距离 (Normalized 
Cression Distanee ) 的 方法 实现 对 同一 机 构 不 同名 称 
的 际 类 ; 杨 奕 虹 等 "通过 编制 机 构 多 层级 词 表 ,并 分 
榨 野 在 文献 计量 和 科研 绩效 管理 中 的 应 用 ,解决 了 海 
量 数 据 中 机 构 名 称 归 一 化 问题 ; 孙 海 霞 等 "采用 基于 
Knitans 算法 ,并 借鉴 基于 频繁 词 集 的 文本 聚 类 中 心 
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确 才 方 法 对 机 构 名 称 进行 了 归 一 化 处 理 ,但 应 用 k- 


means 算法 时 对 聚 类 中 心 的 选择 仍 需 改进 ; 贤 信 '“ 通 
过 人 工 收集 以 及 频次 统计 确定 样本 数据 ,采用 基于 
-近邻 算法 与 编辑 距离 相似 度 算 法 相 结 合 的 方法 实现 
机 构 名 称 的 归 一 ,但 其 对 机 构 名 称 更 名 关系 涉及 较 少 。 
综 上 所 述 ,已 有 的 机 构 名 称 归 一 基本 实现 了 对 机 构 名 称 
别名 和 规范 名 称 的 聚 类 ,但 主要 依靠 频次 统计 获取 规 
则 ,未 将 机 构 名 称 识别 和 归 一 有 机 地 结合 起 来 ;在 聚 类 
过 程 中 ,确定 聚 类 中 心 后 仅 采 用 单一 方法 进行 聚 类 , 且 
聚 类 过 程 中 仅 考 虑 了 别名 关系 ,对 更 名 关系 考虑 较 少 。 
本 文 在 上 述 分 析 基 础 上 ,通过 对 词 项 的 分 析 构 建 
科研 机 构 特 征 词 表 , 发 现 机 构 名 称 的 词性 特征 及 组 合 
序列 ,并 利用 构建 的 特征 词 表 识别 划分 机 构 名 称 中 的 
一 级 机 构 和 二 级 机 构 名 称 ;然后 不 进行 直接 聚 类 ,将 编 
辑 距 离 算 法 ,TF-IDF 方法 和 上 -means 算法 分 两 部 分 结 
合 应 用 于 科研 机 构 名 称 的 聚 类 归 一 ,从 而 优化 了 聚 类 
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效果 ;对 于 更 名 关系 也 利用 作者 关系 做 了 进一步 研究 。 


2 构建 机 构 特征 词 表 


特征 词 表 构 建 是 为 了 有 效 识别 一 级 机 构 、 二 级 机 
构 名 称 ,通常 由 表示 机 构 性 质 或 类 型 的 特征 词 构 成 。 

通过 对 科研 机 构 名 称 的 构成 分 析 可 以 发 现 ,科研 
机 构 名 称 一 般 以 A+B 的 形式 表达 ,并 且 是 以 B 部 分 
为 中 心 语 的 定名 型 短语 。A 部 分 一 般 由 动词 方位 词 、 
序数 词 .形容词 等 构成 且 长 度 不 定 。B 部 分 相对 较为 
固定 ,数量 也 较 少 ,集中 在 “大 学 "“ 学 院 ”“ 人 研究 院 ” 等 ， 
因而 可 以 通过 构建 相关 的 特征 词 表 识别 B 部 分 。 而 A 
部 分 可 以 通过 词性 标注 及 分 析 , 总 结 出 机 构 名 称 前 部 
分 的 可 能 组 合 序列 ,在 进行 机 构 名 称 识别 时 根据 序列 
组 合 规则 进行 匹配 。 
2.1 数据 来 源 

机 构 名 称 归 一 需要 展现 机 构 名 称 演化 变更 规律 。 
本 研究 利用 中 国 知 网 数据 库 收 集 样本 数据 ,而 在 其 中 
通过 机 构 名 称 直接 检索 文献 ,会 从 不 同 角 度 影 响 查 全 
率 和 查 准 率 , 一 种 是 精确 查找 ,忽略 了 同一 机 构 实体 其 
他 名 称 的 文献 ; 男 一 种 是 模糊 查找 ,使 检索 结果 过 于 宽 
泛 。 因 此 在 收集 机 构 名 称 样本 数据 时 ,所 选 数据 不 仅 
需要 包含 机 构 的 简称 、 别 称 等 机 构 名 称 非 规范 形式 ,而 
且 需 要 反映 机 构 名 称 随时 间 的 演化 历程 , 即 对 时 间 跨 
度 有 所 要 求 。 

考虑 到 上 述 因素 ,本 研究 以 学 术 期 刊 为 载体 ,选取 
《图 书 情报 工作 兴 计 算 机 学 报 兴 机 械 工程 学 报 》3 种 
期 刊 的 数据 ,收集 在 2006 - 2016 年 11 间 所 刊 论文 的 
作者 所 在 单位 数据 ,涉及 作者 单位 作者、 期 刊 名 称 及 
论文 发 表 年 限 , 如 图 1 所 示 , 从 中 抽取 “作者 单位 ”数据 
来 探索 机 构 名 称 的 演变 规律 。 检 索 出 相关 文献 13 839 
条 ,而 其 中 部 分 文献 作者 并 非 单一 , 即 作者 单位 也 存在 
多 条 数据 ,通过 在 Excel 表 中 对 作者 单位 数据 进行 拆 分 
分 列 ,保证 一 条 记录 中 只 包含 一 条 单位 名 称 数据 ;并 且 
删除 重复 值 ,消除 无 效 的 噪音 数据 ,例如 ”ALI10” 
“9AB”VA" 等 。 经 过 上 述 对 数据 的 预 处 理 后 ,剩余 有 
效 数 据 6 503 条 。 
2.2 ”机构 名 称 的 词性 特征 分 析 

词性 标注 分 析 是 对 自然 语言 处 理 的 预 处 理 操作 ， 
通过 此 可 以 发 据 机 构 名 称 词 与 其 相连 成 分 的 组 合 形 
式 。 采 用 NLPIR 汉语 分 词 系统 进行 分 词 处 理 及 词性 
标注 ,将 6 503 条 机 构 名 称 数 据 划分 为 41 439 个 词 ,其 
中 主要 是 名 词 动词. 形容词 ,其 分 布 情况 见 图 2。 在 
分 词 系统 词性 标记 集中 ，n 表示 名 词 、ns 表示 地 名 、m 
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二 


人 网 中 的 旨 分 和 起 保 人 炳 
基于 小 波 的 多 尺度 网 络 流量 预测 模 洪 飞 ; 
基于 SPIHT 的 感 兴趣 区 域 的 多 措 述 { 肖 时 

多 尺度 变换 域 图 像 的 感知 与 识别 关 焦 李 成 ， 了 “计算 
肤色 检测 技术 综述 陈 铁 生 ; 刘 政 凯 ， 计 算 机 
SHUI-UC0S :基于 统一 多 任务 模型 5 周 博 ; 王石 记 ; 印 - 计 算 机 
偏 序 集 、 包 含 度 与 形式 概念 分 析 ” 曲 开 社 ; 翟 岩 楚 ;计算 机 
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名 年 ”机构 


2006 中 国 科学 院 软 件 研究 所 信息 安全 国家 重点 详 验 室 , 中 国 科学 院 软 件 研究 所 信息 安全 国家 重点 实验 室 北京 100080, 北京 100080 

2006 中 国 科学 院 软 件 研究 所 信息 安全 国家 重点 实验 室 , 中 国 科学 院 软件 研究 所 信息 安全 国家 重点 实验 室 北京 100080, 北京 100080 

2006 西安 电子 科技 大 学 综合 业务 网 理论 和 关键 技术 国家 重点 实验 室 , 西安 电子 科技 大 学 信息 科学 研究 所 , 西安 电子 科技 大 学 宾 带 无 线 通信 实验 室 , 西安 电 - 
2006 国防 科学 技术 大 学 电子 科学 与 工程 学 院 , 国防 科学 技术 大 学 电子 科学 与 工程 学 院 , 国防 科学 技术 大 学 电子 科学 与 工程 学 院 , 国防 科学 技术 大 学 电子 科 : 
2006 中 国 科学 院 软 件 研究 所 互联 网 软件 技术 实验 室 , 中 国 科学 院 软件 研究 所 互联 网 软件 技术 实验 室 , 中 国 科学 院 软件 研究 所 互联 网 软件 技术 实 给 室 , 中 国 # 
2006 中 国 科学 院 计算 技术 研究 所 , 中 国 科学 院 研究 生 院 , 中 国 科学 院 计算 技术 研究 所 北京 100080, 北京 100080, 北京 100080 

2006 中 国 科学 院 计算 技术 研究 所 , 中 国 科学 院 计算 技术 研究 所 , 中 国 科学 院 计算 技术 研究 所 北京 100080, 北京 100080, 北京 100080 

2006 空军 雷达 学 院 信息 工程 系 , 空军 雷达 学 院 信息 工程 系 , 国防 科技 大 学 并 行 与 分 布 处 理 国家 重点 实验 室 武汉 430019, 武汉 430019, 长 沙 410073 

2006 中 国 科学 技术 大 学 计算 机 科学 技术 系 国家 高 性 能 计算 中 心 ( 合 肥 ), 中 国 科学 技术 太 学 计算 机 科学 技术 系 国家 高 性 能 计算 中 心 (合肥 ), 中 国 科学 技术 大 
2006 中 南大 字 信 息 科学 和 工程 学 院 , 中 南大 学 信息 科学 和 工程 学 院 长 沙 410083, 长 沙 410083 

2006 华南 师范 大 学 数学 科学 学 院 , 澳门 科技 大 学 资讯 科技 学 院 , 中 山大 学 数学 与 计算 科学 学 院 广州 510631, 澳门 , 广州 510275 

2006 中 国 科学 院 计算 技术 研究 所 智能 信息 处 理 重点 实验 室 , 中 国 科学 院 计算 技术 研究 所 智能 信息 处 理 重点 实验 室 , 中 国 科学 院 计算 技术 研究 所 智能 信息 处 
2006 清华 大 学 计算 机 科学 与 技术 系 智能 技术 与 系统 国家 重点 实验 室 , 清华 大 学 计算 机 科学 与 技术 系 智 能 技术 与 系统 国家 重点 实验 室 北京 100084, 国家 知 - 
2006 东南 大 学 计算 机 科学 与 工程 系 , 东南 大 学 计算 机 科学 与 工程 系 , 东南 大 学 计算 机 科学 与 工程 系 , 国防 科学 技术 大 学 计算 机 学 院 南京 210096, 江苏 省 软 
2006 清华 大 学 计算 机 科学 与 技术 系 , 教育 部 生物 信息 学 重点 实验 室 , 清华 大 学 计算 机 科学 与 技术 系 北京 100084, 北京 100084, 北京 100084 

2006 清华 大 学 计算 机 科学 与 技术 系 , 清华 大 学 计算 机 科学 与 技术 系 北京 100084, 北京 100084 

2006 山东 大 学 计算 机 科学 与 技术 学 院 , 山东 大 学 计算 机 科学 与 技术 学 院 , 山东 大 学 计算 机 科学 与 技术 学 院 , 山东 大 学 计算 机 科学 与 技术 学 院 , 山东 大 学 计算 
2006 中 国 科学 技术 大 学 计算 机 科学 技术 系 , 中 国 科学 院 软件 研究 所 计算 机 科学 重点 实验 室 , 中 国 科学 技术 大 学 计算 机 科学 技术 系 , 中 国 科学 技术 大 学 计算 
2006 北京 航空 航天 大 学 计算 机 学 院 , 中 国 科学 院 软 件 研究 所 多 媒体 通信 与 网 络 研究 中 心 北京 100083, 北京 100080 

2006 西安 电子 科技 大 学 ISJ 国 家 重点 实验 室 , 西安 电子 科技 大 学 1SH 国 家 重点 实验 室 , 西安 电子 科技 大 学 SN 国家 重点 实验 室 , 西安 电子 科技 大 学 ISJ 国 家 重 
2006 西安 电子 科技 大 学 智能 信息 处 理 研究 所 , 西安 电子 科技 大 学 雷达 信号 处 理 国家 重点 实验 室 西安 ?10071, 西安 710071 

2006 中 国 科学 技术 大 学 电子 工程 与 信息 科学 系 , 中 国 科学 技术 大 学 电子 工程 与 信息 科学 系 合肥 230027, 国立 华侨 大 学 计算 机 科学 系 , 泉州 362021, 合肥 2 
2006 复旦 大 学 计算 机 与 信息 技术 系 , 哈尔滨 工业 大 学 通信 技术 研究 所 , 复旦 大 学 计算 机 与 信息 技术 系 , 复旦 大 学 计算 机 与 信息 技术 系 上 海 200433, 哈尔滨 : 
2006 山西 大 学 计算 机 与 信息 技术 学 院 , 山西 大 学 守 站 机 与 信息 技术 学 综 太原 030006, 太原 030006 


图 1 


表 范 数 词 m 表示 名 动词 .cc 表示 并 列 连词 b 表示 区 
别 词 。 从 统计 结果 可 以 看 出 ,机 构 名 称 中 名 词 占 绝 大 
,对 机 构 名 称 的 组 合 序列 进行 总 结 , 主要 分 为 4 种 
类 型 :名 词 + 名词。 比如“ 中国 /ns 人 民 /n 大 学 /n 
新 闻 /n 学 院 /n” ,此 构成 类 型 占 了 绝 大 多 数 。 回 动词 
二 比如 “武汉 /ns 大 学 /n 新 闻 /n 与 /cc 传播 /ma 
党 院 /n”。@ 形 容 词 + 名词。 比如 “山东 /ns 大 学 /n 公 
卫生 /an 学 院 /n”。@ 序 数 词 + 名词。 比如 “广东 
0 岭南 /ns 工商 /n 第 一 /m 技师 /n 学 院 /n”。 
通过 词性 分 析 , 在 下 一 步 构建 特征 词 表 时 ， 主要 对 
御 末 进行 判断 ,可 以 根据 序列 组 合 形式 辅助 判断 是 


为 特征 词汇 。 
SS 机 构 名 称 词性 分 布 
mm 40 000 
33429 
OO 30 000 
20 000 
10 000 
3943 
0 [| a 
名 词 动词 形容 词 


图 2 机 构 名 称 词性 特征 


2.3 确定 特征 词 表 

除了 对 词性 分 布 进行 统计 ,对 词 频 也 进行 了 统计 。 
共 划 分 为 82 946 个 词汇 ,频次 最 高 的 为 "大 学 ”, 共 出 
现 3 411 次 ;其 次 为 “学 院 ”, 共 出 现 2727 次 。 说 明 “ 大 
学 ” 和“ 学院” 两 个 词 很 大 程度 上 可 能 是 科研 机 构 的 特 
征 词 。“ 大 学 "一般 都 是 作为 高 校 一 级 机 构 的 特征 词 ; 

院 ” 的 频次 也 较 高 ,在 科研 机 构 中 , “学院 ” 既 可 以 
作为 一 级 机 构 存 在 ,也 可 以 作为 二 级 机 构 存在 ,如 “ 太 
原 师 范 学 院 地 理科 学 学 院 ”。 此 外 ,“ 工 程 “ 信 息 ”“ 科 
学 ”等 词 的 词 频 也 较 高 ,通过 对 数据 的 调研 ,此 类 型 大 


预 处 理 前 数据 


多 为 表示 行业 方向 ,专业 类 型 的 词 ,与 原始 数据 类 型 息 
息 相关 ;收集 的 原始 数据 不 同 , 所 统计 的 词 频 也 随 之 发 
生变 化 。 
构建 机 构 名 称 特征 词 表 ,需要 选取 频率 较 高 的 词 ， 
即 选用 泛 词 ,因而 采用 高 频 低 频 词 界定 公式 计算 选 出 
高 频 词汇 。 高 频 低频 词 闵 值 采用 J C. Donohue 在 文 
献 “中 利用 齐 普 夫 定律 推导 出 的 高 频 低频 词 界 分 公 
式 , 如 式 (1) 所 示 : 
T=(-1+ V+8x1)/2 式 (1) 
为 词 频 为 1 的 关键 词 的 个 数 ,T 指 高 频 词 中 的 
最 低频 次 值 , 即 高 频 、 低 频 词 的 词 频 临界 值 。 本 统计 
中 ,了 /=1 090, 计 算得 T =46 ,最 终 确定 本 研究 的 高 频 
低频 词 阔 值 为 46 次 。 选 取出 现 频次 大 于 46 次 的 词 作 


为 高 频 词 ,并 对 这 些 高 频 词 进行 人 工 审 核 ,将 符合 条 件 
的 词汇 作为 科研 机 构 的 特征 词 存储 至 特征 词 库 中 ,最 


终 确定 了 11 个 特征 词 ,如 表 1 所 示 : 
表 1 机构 名 称 特征 词 表 


特征 词 词 频 
天 学 3 411 
学 院 2 727 

书馆 945 

实验 室 754 

系 714 

研究 所 659 
中 心 485 

科学 院 269 

研究 院 248 
公司 112 
集团 82 
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3 机 构 名 称 层级 识别 


在 进行 机 构 名 称 归 一 前 ,需要 识别 其 一 级 机 构 和 
二 级 机 构 。 借 助 分 词 系统 只 是 对 于 机 构 名 称 进行 了 分 
词 和 词性 标注 ,无 法 区 分 一 级 机 构 和 二 级 机 构 。 

机 构 名 称 的 识别 包括 一 级 机 构 名 称 、 二 级 机 构 名 
称 等 各 级 机 构 名 称 的 识别 ,根据 已 构建 的 机 构 特征 词 
表 , 从 左 向 右 正 向 遍历 每 个 机 构 名 称 字符 串 ,然后 为 一 
级 机 构 二 级 机 构 等 设置 符号 ,并 按照 先后 顺序 在 与 特 
征 词 表 匹配 成 功 时 标注 相应 的 符号 将 其 区 分 开 , 即 实 
现 一 \ 二 级 机 构 名 称 的 识别 “。 

处 理 流程 如 下 :对 机 构 数 据 进 行 预 处 理 后 ,首先 将 
机 构 数 据 与 特征 词 表 进 行 精确 匹配 ,对 每 一 次 匹配 成 


功 的 标注 设 定 的 符号 。 如 “山西 大 学 经 济 与 管理 学 
院 ”, 则 标注 为 “山西 大 学 # 经 济 与 管理 学 院 #”, 即将 
“山西 大 学 " 视 为 一 级 机 构 ,“ 经 济 与 管理 学 院 ” 视 为 二 
级 机 构 。 对 于 包含 特征 词 较 多 的 ,比如 “北京 师范 大 学 
管理 学 院 信 息 管理 与 信息 系 ”, 将 其 标注 为 “北京 师范 
大 学 # 管 理学 院 # 信 息 管理 与 信息 系 #”, 即 将 “北京 师 
范 大 学 ” 视 为 一 级 机 构 ,“ 管 理学 院 ” 视 为 二 级 机 构 ， 
“信息 管理 与 信息 系 ” 视 为 三 级 机 构 。 对 于 一 些 特殊 
机 构 名 称 , 如 “山西 大 学 商务 学 院 ”, 标 注 为 “山西 大 学 
# 了 商务 学 院 #” ,事实 上 其 本 喘 为 一 级 机 构 ,标注 后 的 划 
分 不 符合 实际 情况 ,对 于 这 一 类 问题 ,将 在 第 四 部 分 设 
计 解 决 。 通 过 上 述 流程 ,识别 结果 如 表 2 所 示 : 


表 2 机 构 名 称 层次 识别 结果 (示例 ) 


> 一 级 机 构 一 级 机 构 绑 定 二 级 机 构 三 级 机 构 
局) xx 科学 院 研究 所 ,研究 中 心 大 学 .研究生 院 等 实验 室 ,中 心 ,学 院 等 XX 部 .XX 系 等 
XX 大 学 XX 学 院 ,分校 等 学 院 , 系 、 图 书馆 .研究 所 ,实验 室 等 XX 系 .XX 部 .办公室 等 
XX 学 院 分 校 等 学 院 \ 系 .图 书馆 ,研究 所 ,实验 室 等 XX 系 .XX 部 ,办 公 室 等 


CD 机 构 名 称 归 一 化 间 在 将 同一 机 构 实体 名 称 的 不 同 
关 淡 形式 集中 起 来 ,建立 规范 名 称 与 变异 名 称 之 问 的 
对 通关 系 ,通过 赋予 机 构 唯一 标识 符 的 方式 达到 机 构 
识 划 的 目的 。 
二 基于 计算 字符 串 相似 度 的 算法 对 数据 中 一 级 机 构 
名 黎 进 行 初步 聚 类 ,将 同一 个 一 级 机 构 归 入 同一 数据 
团 守 按照 计算 所 依据 的 特征 字符 串 相似 度 计算 方法 可 
以 包 分 为 :基于 字面 相似 的 方法 、 基 于 统计 关联 的 方 
法 : 医 于 语义 相似 的 方法 以 及 综合 字面 .语义 和 统计 关 
联 特征 的 多 层 特征 方法 ”。 其 中 编辑 距离 算法 可 以 
根据 设 定 相似 度 阔 值 对 字符 串 进行 分 组 ,并 且 应 用 广 
泛 , 发 展 较为 成 熟 , 可 以 满足 机 构 名 称 初步 聚 类 的 要 
求 。 再 基于 TF-IDF 算法 并 通过 借鉴 K-Means 聚 类 算 
法 的 中 心思 想 将 机 构 名 称 围绕 聚 类 中 心 抱 团聚 簇 , 利 
用 初步 聚 类 结果 进行 一 级 机 构 名 称 下 的 小 范围 聚 类 ， 
即 实现 同一 机 构 实 体 不 同形 式 名 称 的 聚合 。 
4.1 ”初步 聚 类 

编辑 距离 算法 (levenshtein distance ) 是 V. I. Lev- 
enshtein 于 1966 年 提出 的 ,编辑 距离 是 指 由 源 字符 
串 转 变 为 目标 字符 串 所 需要 的 最 小 编辑 操作 的 次 数 ， 
编辑 操作 包括 “插入 “删除 “替换 ”3 种 类 型 。 

计算 相似 度 时 , 先 取 两 个 字符 串 长 度 的 最 大 值 , 然 
后 通过 式 (2) 计算 相似 度 (Sim ) : 
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Sim =1 - (编辑 次 数 / 最 大 值 ) 式 (2) 
当 由 源 字符 串 转 换 为 目标 字符 串 时 , 源 字 符 串 不 
需要 进行 任何 编辑 操作 就 转换 为 目标 字符 串 , 即 编辑 
距离 为 0, 相 似 度 为 100% , 则 两 个 字符 串 完全 相似 ; 当 
由 源 字 符 串 转换 为 目标 字符 串 时 , 源 字符 串 中 每 个 字 
符 全 部 转换 为 目标 字符 串 中 的 字符 方 可 相同 , 即 相似 
度 为 0% , 则 两 个 字符 串 之 间 没 有 相似 性 。 因 而 需要 
设 定 一 个 介 于 0% 和 100% 之 间 的 相似 度 闷 值 , 对 源 字 
符 串 和 目标 字符 串 进行 编辑 距离 计算 后 判断 相似 度 是 
否 满足 预先 设置 的 半 值 Y, 从 而 判断 是 否 进行 聚 类 。 
将 识别 后 的 一 级 机 构 名 称 筛 选 出 来 作为 数据 样 
本 。 初 步 聚 类 算法 如 下 :首先 设 定编 辑 距 离 算法 的 相 
似 度 阀 值 Y, 然 后 从 数据 样本 中 将 第 一 条 数据 作为 第 
一 个 团 的 聚 类 中 心 ,接着 将 剩余 数据 依次 与 第 一 条 数 
据 进行 相似 度 计算 ,如 果 相 似 度 小 于 阔 值 了 不作 处 理 ; 
如 果 相 似 度 大 于 等 于 阔 值 Y, 则 将 这 条 数据 与 第 一 条 
数据 分 人 同一 个 团 中 。 然 后 从 相似 度 小 于 阔 值 立 的 数 
据 中 再 次 选取 第 一 条 数据 作为 聚 类 中 心 ,重复 循环 上 
述 操 作 ,直至 所 有 数据 完成 编辑 距离 计算 , 即 可 将 所 有 
一 级 机 构 名 称 数据 划分 为 若干 个 机 构 名 称 数据 团 , 实 
现 步 又 见 图 3。 
4.2 ”基于 TFJIDF 和 K-means 算法 的 机 构 名称 归 一 
依据 编辑 距离 算法 完成 对 一 级 机 构 名 称 的 初步 聚 
类 后 ,在 每 一 个 一 级 机 构 名 称 数 据 团 下 ,首先 计算 各 个 
机 构 名 称 的 TF -IDF (term frequency -inverse document 
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选取 第 一 条 数据 作为 
聚 类 中 心 
依次 读 人 下 一 条 数据 进行 编辑 
距离 算法 计算 相似 度 
是 否 达到 阔 值 了 


至 
划 入 同一 数据 团 中 不 作 处 理 


3 初步 聚 类 流程 


frequency) 值 ,再 采用 K-means 算法 将 其 一 、 二 级 机 构 
名 称 绑 定 进行 迭代 聚 类 ,缩小 聚 类 范围 ,实现 机 构 名 称 
数 扎 的 归 一 。 

CCreapr 是 指 TF *IDF, 可 以 评估 一 词 项 在 文档 集 
全 <B 的 重要 程度 ""。TF 即 词 频 (term frequeney ) ,表示 
其 涪 项 在 文档 中 出 现 的 频率 ;IDF 即 反 文档 频率 (in- 
ve 
uht frequency ) 表示 包含 某 词 项 的 文档 数量 。TF-IDF 
的 于 要 思想 是 : 若 某 词 项 在 某 文档 中 出 现 的 频率 高 ,而 
在 证 个 文档 集合 中 其 他 文档 中 出 现 的 频率 低 , 则 该 词 
项 对 文档 具有 区 别 意义 ,可 以 对 文档 进行 分 类 ; 若 包含 
鞭 琵 项 的 文档 越 少 ,IDF 越 大 , 则 该 词 项 对 不 同类 别 文 
档 蒋 区 分 度 越 高 。 算 法 流程 如 下 :首先 对 文档 进行 分 
词 :3 冰 去 除 停 用 词 ; 然 后 统计 各 个 词 项 在 单个 文档 中 出 
现 的 次 数 和 文件 集合 中 词 项 出 现 的 次 数 ;最 后 计算 得 
其 TF-IDF 值 。 

传统 的 K-means 聚 类 算法 是 预先 设 定 聚 类 中 心 ， 
指定 类 别 数 后 对 样本 集合 进行 聚 类 ,并 且 采 用 迭代 更 
新 的 算法 向 目标 函数 值 减少 的 方向 进行 ,使 目标 函数 
值 取得 极 小 值 ,达到 较 优 的 聚 类 效果 ” 。 通 过 TF-IDF 


上 所 


二 
a 


可 以 衡量 每 个 词 项 在 文档 中 的 重要 程度 ,将 其 藤 套 - 


means 算法 流程 如 下 :首先 从 数据 对 象 中 随机 选取 大 
干 个 元 素 作 为 下 个 复 的 初始 聚 类 中 心 ,将 其 TFTDF 值 
代入 ,分 别 计算 剩 下 的 其 他 数据 与 各 个 簇 的 聚 类 中 心 
的 距离 ,将 数据 赋 给 与 其 距离 最 近 的 艇 ;然后 根据 聚 类 
结果 ,重新 计算 即 调整 每 个 篮 的 聚 类 中 心 ,将 聚 类 的 中 
心 移 到 只 类 的 几何 中 心 (均值 ) 处 ;反复 迭代 ,直到 至 
类 中 心 不 再 移动 , 即 算法 收 化 。 在 计算 距离 时 ,本 文采 
用 -means 算法 中 常用 的 欧 几 里 得 距离 ” , 即 两 个 元 
素 在 欧式 空间 中 的 集合 距离 : 


DX,Y)= V(x-y) +(2 -和 2) ++ (rn yn) ) 
式 (3) 
其 中 X,Y 分 别 代表 文档 ,X;,Y, 是 每 个 文档 中 词 
项 的 TD-IDF 值 。 
聚 类 完毕 后 ,分别 对 每 一 个 复 的 机 构 名 称 赋予 唯 
一 标识 符 ID。 
如 图 4 所 示 : 


从 数据 中 随机 选取 若干 
元 素 作为 聚 类 中 心 


计算 欧 几 里 得 距离 


4 ” 聚 类 流程 


5 ”机构 更 名 关系 的 提取 


聚 类 方法 适用 于 识别 机 构 的 别名 , 即 名 称 之 间 存 
在 一 定 的 相似 性 。 除 此 之 外 ,实际 机 构 名 称 数据 中 还 
存在 更 名 情况 ,比如 “中 北大 学 "原名 为 “华北 工学 
院 ”, 此 类 更 名 关系 以 及 其 更 名 规律 难以 从 词性 规则 归 
纳 总 结 ,使 得 机 构 名 称 无 法 从 语词 的 相似 性 建立 关联 。 
因而 利用 机 构 数 据 信 息 中 作者 的 共 现 率 挖掘 机 构 之 间 
的 关联 关系 ,此 处 共 现 率 是 指 所 比较 的 两 个 机 构 中 共 
同 作者 (作者 交集 ) 占 作者 总 数 ( 作 者 并 集 ) 的 比值 。 
由 于 提取 机 构 名 称 的 更 名 关系 需要 计算 机 构 之 间 的 作 
者 交集 ,而 计算 作者 交集 就 要 考虑 交集 数 达 到 多 少 才 
判定 两 个 机 构 之 间 有 关联 , 即 首先 需要 提前 设置 共 现 
率 阀 值 ; 经 过 机 构 名 称 数据 聚 类 之 后 ,每 一 个 机 构 名 称 
篮 所 代表 的 机 构 都 有 其 相应 的 作者 集合 ,然后 通过 计 
算 机 构 名 称 复 所 对 应 的 作者 集合 之 间 的 共 现 作者 数 提 

实现 方法 如 下 :设置 作者 共 现 率 的 阐 值 X; 从 机 构 
信息 中 的 第 一 个 作者 集合 开始 ,依次 迭代 提取 每 个 作 
者 集合 和 其 他 所 有 作者 集合 的 交集 ,并 计算 出 相应 的 
共 现 率 ;车 计算 所 得 的 共 现 率 小 于 立 值 X, 则 不 作 处 
理 ; 若 共 现 率 大 于 等 于 阔 值 X, 则 判定 两 个 机 构 名 称 之 
间 存 在 更 名 关系 ,并 将 两 个 机 构 的 唯一 标识 符 ID 合并 
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(采用 时 间 较 近 的 名 称 的 了 D 赋予 ) ,对 时 间 较 远 的 标注 
曾 用 名 。 更 名 关系 提取 的 原理 如 图 5 所 示 : 


本 实验 首先 使 用 MyEclipse 开发 工具 , 用 Java 语 

言 编写 程序 完成 机 构 名 称 层级 识别 ,编辑 距离 初步 聚 
类 以 及 基于 TF-IDF 和 人 上 -means 算法 的 文本 聚 类 等 操 
作 ; 然 后 采用 C 语言 实现 机 构 名 称 更 名 关系 的 提取 ， 
最 终 实现 机 构 名 称 的 归 一 化 研究 。 
6. 息 机 构 名 称 层次 识别 

C9 在 本 次 实验 中 ,采用 预 处 理 后 的 机 构 名 称 样本 数 
据 进 行 操 作 。 识 别 结果 如 图 6 所 示 ( 以 北京 大 学 相关 
让 称 为 例 ) : 
” 543| 北 京 大 学 # 
544| 北 京 大 学 #CALIS 管 理 中 心 # 
545 北京 大 学 #CASHL 管 理 中 心 # 


546 | 北京 大 学 # 法 制 信息 中 心 # 
547 北京 大 学 # 高 可 信和 软件 技术 教育 部 重点 实验 室 # 


548 | 北京 大 学 # 高 可 信 度 软件 技术 教育 部 重点 实验 室 # 
549 | 北京 大 学 # 光 华 管理 学 院 # 

550| 北 京 大 学 # 机 器 感知 与 智能 教育 部 重点 实验 室 # 
551 | 北京 大 学 # 计 算 语言 学 教育 部 重点 实验 室 # 

552 北京 大 学 # 计 算 语言 学 研究 所 # 

553| 北 京 大 学 # 计 算 机 科学 与 技术 系 # 

554 北京 大 学 # 计 算 机 科学 技术 系 # 

555 北京 大 学 # 计 算 机 科学 技术 研究 所 # 

556| 北 京 大 学 # 计 算 中 心 # 


图 6 机 构 名 称 识别 结果 (部 分 ) 


SC 

6 机 构 名 称 归 一 

6.2&3J1 基于 编辑 距离 算法 的 初步 聚 类 ”根据 识别 结 
果 ,分 离 出 一 级 机 构 并 进行 预 处 理 , 即 排序 去 重 。 去 重 
后 得 到 2 465 条 一 级 机 构 名 称 数据 。 运 用 编辑 距离 算 
法 进行 初步 聚 类 ,其 中 经 过 对 数据 的 分 析 , 相 似 度 阔 值 
设置 为 85% 较为 准确 。 初 步 聚 类 结果 如 图 7 所 示 ( 以 
河北 地 区 为 例 ) 。 

从 图 7 中 可 以 看 出 ,一 级 机 构 之 间 相 似 度 达到 
85% 的 已 舟 选 出 来 。 标 红 部 分 为 闪 值 达到 85% 的 特 
殊 情 况 ,主要 有 以 下 几 类 : 

(1) 两 者 指 同一 机 构 , 但 因 其 命名 等 原因 著录 失 
误 ,经 过 初步 聚 类 后 实现 抱团 。 例 如 :地 名 问题 :广东 
外 语 外 贸 大 学 ”和 “广州 外 语 外 贸 大 学 ” ,实际 均 为 “ 广 
东 外 语 外 贸 大 学 ” ;介词 问题 : 国防 科学 与 技术 大 学 ” 
和 ”国防 科学 技术 大 学 ” ,实际 均 为 “国防 科学 技术 大 
学 ”; 省 市 标识 问题 :山西 旅游 职业 学 院 "” 和 ”山西 省 
旅游 职业 学 院 " 实际 均 为 "山西 旅游 职业 学 院 ” “上海 
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716 一 级 机 构 名 称 一 急 机 构 名 称 编辑 距离 相似 度 
717 河北 北方 学 院 河北 北方 学 院 : 中 0 sim: 10 
718 河北 大 学 河北 大 学 : do:0 sim: 10 
了 719 河北 钢铁 集团 河北 钢铁 集团 Id:0 sim: 10 
720 河北 工程 大 学 河北 工程 大 学 : d:0 sim: 10 
Z21 河北 工业 大 学 河北 工业 大 学 : 中 0 sim: 10 
722| 河 北 工业 职业 技术 学 院 河北 工业 职业 技术 学 院 : lId:0 sim: 10 
723| 河 北 工业 职业 技术 学 院 河南 工业 职业 技术 学 院 : Id:1 sim: 0.9 
724 河北 建材 职业 技术 学 院 河北 建材 职业 技术 学 院 : d:0 sim: 10 
了 25 河北 金融 学 院 河北 金融 学 院 ld:0 sim:10 
726 河北 经 贸 大 学 河北 经贸 六 学 : d:0 sim: 10 
727 河北 科技 大 学 河北 科技 大 学 : 中 0 sim: 10 
728 | 河北 科技 师范 学 院 河北 科技 师范 学 院 : 中 0 sim: 10 
729 河北 理工 大 学 河北 理工 大 学 d:0 sim: 10 
730 河北 联合 大 学 河北 联合 大 学 : 中 0 sim:10 
了 731 河北 旅游 职业 学 院 河北 旅游 职业 学 院 : 中 0 sim: 10 
232 河北 民族 师范 学 院 河北 民族 师范 学 院 d:0 sim: 10 
733 河北 农业 大 学 河北 农业 大 学 ld:0 sim:10 
734 河北 软件 职业 技术 学 院 河北 软件 职业 技术 学 院 : d: 0 sim: 10 
735 河北 省 电力 公司 河北 省 电力 公司 : Id:0 sim: 10 
736| 河 北 省 科学 技术 情报 研究 院 。 “河北 省 科学 技术 情报 研究 院 : d: 0 sim:10 


图 7 一 级 机 构 名 称 初步 聚 类 结果 ( 部 分 ) 


交通 大 学 ”和 “上 海 市 交通 大 学 ”实际 均 为 “上海 交通 
大 学 ”。 

(2) 两 者 并 非 同一 机 构 , 但 因 机 构 名 称 之 间 编 辑 
距离 较 少 ,被 视 为 相似 。 此 类 情况 在 后 期 一 、 二 级 机 构 
名 称 绑 定 归 一 化 重新 聚 类 。 中 地 名 前 缀 相似 :北京 航 
空 航天 大 学 ”和 “南京 航空 航天 大 学 ”“ 河 南 财经 政法 
大 学 ”和 “中 南 财 经 政法 大 学 ”等 ; 书 修饰 词 相似 :“ 哈 
尔 滨 工业 大 学 ” “哈尔滨 工程 大 学 ”和 “哈尔滨 商业 大 
学 ”;@ 同 一 附属 机 构 统 一 编 名 :“ 中 国航 天 科 工 集团 
第 六 研究 院 ” 和 “中 国航 天 科 工 集团 第 三 研究 院 ”。 

对 于 这 些 特殊 情况 ,进行 抱团 聚 徐 时 , 若 两 个 机 构 
名 称 相似 且 机 构 名 称 数目 相当 ,进行 TF-IDF 计算 后 区 
分 度 较 高 ,通过 KK -means 聚 类 可 将 其 划分 为 相应 的 两 
个 机 构 簇 。 但 当 两 个 机 构 名 称 相似 却 机 构 名 称 数 目 差 
异 较 大 时 ,并 不 能 满足 划分 的 需求 , 需 考 虑 利用 作者 交 
集 信息 进行 分 析 。 提 取 两 个 相似 机 构 名 称 的 作者 信 
息 , 依 据 计 算 更 名 关系 时 采用 的 共 现 率 判断 是 否 为 同 
一 机 构 。 若 达到 设置 的 阔 值 ,即将 其 视 为 同一 机 构 进 
行 相 应 的 聚 类 ; 若 低 于 阔 值 , 则 依据 人 工 判 断 进 行 划 
分 ,再 进行 聚 类 。 

6.2.2 基于 TFJDF 和 K-means 算法 的 聚 类 ”根据 一 
级 机 构 数据 团 的 聚 类 结果 ,对 每 一 个 一 级 机 构 下 的 二 
级 机 构 名 称 首先 计算 其 分 词 后 各 词 项 的 TF-IDF 值 , 然 
后 基于 K-means 算法 ,将 一 、 二 级 机 构 名 称 绑 定 进行 抱 
团聚 簇 。 

图 8 和 表 3 是 对 一 级 机 构 “ 山 西 大 学 ”下 的 机 构 名 
尔 进 行 聚 类 分 析 的 结 

根据 聚 类 结果 ,提取 每 个 机 构 名 称 相关 文献 的 出 
版 日 期 并 进行 排序 ,可 建立 其 别名 关系 。 将 日 期 最 新 
的 作为 中 心 名 称 , 其 他 机 构 名 称 作 为 别名 ,建立 机 构 名 
称 别名 映射 表 。 如 “0300101” 即 将 “山西 大 学 经 济 与 
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山西 大 学 管理 学 院 
山 两 大 学 计算 机 与 信息 技术 学 院 
山 而 大学 经 济 与 工商 管理 学 院 
山西 大 洒 经 济 号 管理 学 院 
NE 
山 两 大学 经 济 与 管理 学 院 
山西 大 学 人 事 处 
山西 大 学 商务 学 院 
山 册 大 学 商务 学 院 图 

再 大 学 向 务 双 民 丑 二 名 了 


8 ”机构 名 称 归 一 结果 示例 


表 3 赋予 机 构 名 称 唯一 标识 符 


机 构 名 称 
300101 山西 大 学 管理 学 院 
山西 大 学 经 济 与 工商 管理 学 院 
山西 大 学 经 济 与 管理 学 院 
山西 大 学 信息 管理 系 


山西 大 学 计算 机 与 信息 技术 学 院 


300102 山西 大 学 人 事 处 

300103 山西 大 学 商务 学 院 
山西 大 学 商务 学 院 图 书馆 
山西 大 学 商务 学 院 信息 学 院 


院 Sj 山西 大 学 经 济 与 工商 管理 学 院 “ 山 西 大 学 信 
管理 系 ”“ 山西 大 学 计算 机 与 信息 技术 学 院 ” 存 储 至 其 
别 答 表 中 建立 映射 。 

在 聚 类 结果 中 ,也 存在 聚 类 错误 的 情况 ,如 ”山西 大 
学 证 算 机 与 信息 技术 学 院 " 与 “山西 大 学 经 济 与 管理 学 
院 并 不 是 同一 个 机 构 , 采 用 TFJDF 计算 ， 计 算 机 与 信 
息 拉 术 ” 和 “信息 管理 系 ” 中 “信息 ”一 词 的 频次 较 高 , 影 
响 了 聚 类 效果 ,因而 准确 率 并 不 能 达到 100% 。 
6.3 机构 更 名 关系 的 提取 

整合 作者 信息 数据 后 ,通过 对 数据 的 考察 将 共 现 
率 阔 值 设 置 为 135% 。 应 用 C 语言 代码 测试 ,结果 见 图 
9 ,提取 ”华北 工学 院 " 和 ”中 北大 学 "对 应 的 作者 集合 ， 
并 计算 其 共 现 率 。 两 个 机 构 作 者 集合 的 共 现 率 达到 了 
15% ,因而 认为 两 个 机 构 之 间 存 在 更 名 关系 ,由 于 “中 
北大 学 "相关 文献 的 出 版 日 期 新 于 "华北 工学 院 ” ,将 
两 个 机 构 名 称 合并 入 同一 个 簇 中 ,并 将 “中 北大 学 ”的 
唯一 标识 符 ID 赋予 该 簇 。 
6.4 实验 结果 评析 

根据 具体 的 实践 应 用 需求 ,观察 聚 类 的 结果 是 否 
与 预期 结果 相符 是 检验 一 个 聚 类 是 否 有 效 的 方法 。 本 
研究 目标 是 实现 同一 机 构 不 同 表达 形式 的 自动 归 一 ， 


管理 学 院 " 作为 该 复 的 中 心 名 称 , 将 "山西 大 学 管理 学 
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图 9 机 构 更 名 关系 提取 
评价 指标 主要 包括 聚 类 效率 和 聚 类 效果 , 聚 类 效率 涉 


及 到 算法 的 采用 、 应 用 程序 .机 器 设备 等 , 聚 类 效果 主 
要 考虑 准确 率 (precision ) 和 召回 率 (recall ) 两 个 指标 ， 
定义 如 下 : 


准确 率 :P = A/(A+B) 

召回 率 :R =A/(A+C) 

其 中 ,A 表示 在 实验 机 构 数据 中 正确 聚 类 的 机 构 
名 称 数 ;B 表示 在 实验 机 构 数据 中 错误 聚 类 的 机 构 名 
称 数 ;C 表示 在 实验 机 构 数据 中 未 正确 聚 类 ,但 确实 为 
该 机 构 类 别 的 机 构 名 称 数 。 将 本 文 研究 方法 的 聚 类 结 
果 进 行人 工 验 证 ,在 一 级 机 构 名 称 归 一 的 基础 上 ,选取 
部 分 一 级 机 构 名 称 , 对 其 下 的 二 级 机 构 进行 聚 类 ,准确 
率 达 到 了 80% 以 上 ,召回 率 达 到 了 75% 以 上 , 聚 类 效果 
较 好 ,但 仍 存在 一 些 问题 ,有 待 进一步 对 算法 进行 优化 。 


随 着 科学 技术 的 不 断 发 展 ,科研 人 才 不 断 涌 出 。 
而 其 所 在 机 构 也 由 于 著录 缺失 演化 更 替 岗位 变动 等 
产生 不 同 的 表达 形式 ,在 对 科研 实体 进行 统计 评价 时 
较为 复杂 ,需要 借助 一 定 的 方式 构建 机 构 规 范文 档 , 集 
中 其 所 有 的 表达 形式 。 本 文 改 变 了 以 往 直 接 采 用 下 - 
means 算法 进行 聚 类 的 算法 ,在 聚 类 前 的 预 处 理 阶段 ， 
依据 构建 的 特征 词 表 进行 机 构 名 称 识别 ,划分 一 级 机 
构 与 二 级 机 构 等 层级 。 通 过 应 用 编辑 距离 算法 对 一 级 
机 构 进行 初步 聚 类 ,限定 了 聚 类 范围 ,从 而 缩短 了 聚 类 
时 间 ,提高 了 算法 运行 效率 。 利 用 TF-IDF 识别 区 分 特 
征 ,一 定 程 度 上 提高 了 聚 类 的 准确 率 和 召回 率 。 通 过 
这 两 部 分 聚 类 ,优化 了 单独 聚 类 的 效果 。 将 机 构 名 称 
数据 抱团 聚 复 ,可 以 挖掘 其 各 名 称 之 间 的 关系 ,建立 相 
应 的 规则 ,便于 统计 科研 成 果 以 进行 定量 研究 ,在 实践 
中 减少 了 人 工 构建 规范 库 的 工作 量 。 

此 外 ,选取 机 构 数 据 时 ,只 选取 了 近 11 年 的 文献 
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数据 ,处 理 的 数据 量 较 少 ,科研 机 构 的 发 展 需要 一 定 的 
时 间 ,而 机 构 11 年 间 更 名 的 较 少 ,如 从 “学 院 ” 转 为 
“大 学 ”多 个 院 校 进行 合并 等 ,因而 分 析 机 构 名 称 演 
化 及 进行 归 一 ,还 是 需要 时 间 跨 度 较 大 的 数据 进行 分 
析 , 本 文 在 此 处 尚 有 欠缺 ,在 分 析 机 构 别 名 和 更 名 关系 
时 具有 一 定 的 局 限 性 ,需要 进一步 考虑 扩大 数据 量 
应 用 -means 算法 聚 类 时 ,K 值 的 确定 仍 对 结果 有 影 
响 ,需要 借助 机 器 学 习 方法 或 基于 统计 的 方法 对 大 量 
数据 进行 训练 ,对 取 值 进行 优化 ;对 于 不 同 的 机 构 名 称 
数据 ,应 当 从 各 个 角度 考虑 ,不 断 调整 K 值 使 得 结果 最 
优 。 这 些 问 题 还 有 待 进一步 解决 。 
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Abstract: [| Purpose/significance | Institution names are numerous and complicated. The normalization of institution 


names brings the authoritative name and the informal ones( both at different times and in different ways of expression ) of 


the same institution together,enhancing comprehensiveness and accuracy of searches ,promoting interoperability with other 


systems ，and thus realizing resource sharing. [ Method/process ] Based on the analysis of institution names ”characteris- 


tic and K -means algorithm ,this paper utilizes the edit distance similarity algorithm to achieve name normalization of insti- 


tution names. Then uses TF-IDF to calculate the weight of each item, around the cluster center to normalize institution 


name based on K -means algorithm and gives the unique identifier to every cluster. [ Result/conclusion |It achieves name 


normalization of the same institution name in different forms. And it improves the precision of institution name cluster, but 


the choice of K value and distance measurement method still needs to be optimized. 
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